Humanidades

Teste de um minuto, 1.939 idiomas: estudo global propõe revolução na medição de proficiência linguística
O trabalho descreve um método que gera testes de vocabulário para até 1.939 idiomas, utilizando apenas grandes corpora de texto, como a Wikipédia e traduções da Bíblia. A inovação não está apenas na abrangência, mas na velocidade...
Por Laercio Damasceno - 28/03/2026


Imagem: Reprodução


A ciência cognitiva, por décadas, construiu parte de seu edifício empírico sobre um alicerce estreito: participantes majoritariamente anglófonos, oriundos de sociedades ocidentais. Um novo estudo publicado nesta sexta-feira (27), na revista Proceedings of the National Academy of Sciences, promete abalar essa dependência histórica ao apresentar uma ferramenta automatizada capaz de medir proficiência linguística em escala global — e em tempo recorde.

Assinado por pesquisadores liderados por Pol van Rijn e Nori Jacoby, o trabalho descreve um método que gera testes de vocabulário para até 1.939 idiomas, utilizando apenas grandes corpora de texto, como a Wikipédia e traduções da Bíblia. A inovação não está apenas na abrangência, mas na velocidade: o teste distingue falantes nativos, não nativos e não falantes em cerca de um minuto.

“Precisamos de medidas objetivas e escaláveis da proficiência linguística para compreender como a linguagem molda o pensamento humano”, afirmam os autores no artigo. A premissa é central: a língua influencia desde a percepção sensorial até noções abstratas de tempo e espaço — o que torna sua mensuração um requisito fundamental em áreas que vão da psicologia à neurociência.

Uma lacuna histórica

O estudo parte de uma crítica já conhecida na literatura: a predominância de participantes WEIRD — acrônimo para Western, Educated, Industrialized, Rich and Democratic. Esse viés limita a generalização de descobertas sobre cognição humana. Embora mais de 7 mil línguas sejam faladas no mundo, a maioria dos experimentos ainda se concentra em poucos idiomas, sobretudo o inglês.

Ferramentas tradicionais, como o teste LexTALE, já oferecem medições relativamente rápidas de vocabulário, mas dependem de listas de palavras elaboradas manualmente por especialistas. Isso restringe sua aplicação a poucos idiomas — atualmente cerca de 14 — e dificulta adaptações para línguas com poucos recursos digitais.

A proposta do novo estudo é eliminar esse gargalo humano. Por meio de um pipeline automatizado, os pesquisadores coletam textos, identificam palavras raras e geram “pseudopalavras” com base em probabilidades estatísticas de combinações de letras. O participante deve distinguir palavras reais de falsas — um procedimento conhecido como tarefa de decisão lexical.

Escala global, precisão comparável

Para validar o método, os autores conduziram experimentos com 4.137 participantes em 34 países, testando proficiência em 34 idiomas diferentes. Os resultados indicam alta confiabilidade: a correlação entre duas aplicações do teste atingiu 0,82, valor próximo ao de métodos tradicionais como o LexTALE (0,87).

A precisão também impressiona. Em média, participantes acertaram entre 88% e 89% das palavras em sua língua nativa, contra cerca de 62% em idiomas estrangeiros. A diferença estatística é significativa e demonstra a capacidade do teste de distinguir níveis de fluência.

Imagem: Reprodução

Outro achado relevante é o gradiente de desempenho: falantes tendem a obter resultados melhores em línguas da mesma família linguística e pior em idiomas distantes — aproximando-se do nível aleatório. Esse padrão reforça a sensibilidade do teste às relações estruturais entre línguas.

Inglês ainda domina — mas menos

Os dados também revelam a persistência da hegemonia do inglês. Em plataformas de recrutamento como Prolific, muitos participantes apresentaram alta fluência no idioma, independentemente da língua nativa. Já em amostras mais diversas, como as da plataforma Cint, a proficiência em inglês foi menor, refletindo desigualdades educacionais e socioeconômicas.

Essa diferença ilustra um ponto crucial: a diversidade linguística está intrinsecamente ligada a fatores sociais. Participantes do Prolific, por exemplo, tinham maior nível educacional e menor variação etária do que os da Cint.

Multilinguismo e exceções

Nem todos os padrões são lineares. Em países com alto grau de multilinguismo, como a Índia, os resultados desafiam expectativas. Falantes de hindi, por exemplo, apresentaram desempenho superior em inglês em alguns testes.

Segundo os autores, isso pode refletir contextos em que a segunda língua é amplamente utilizada em educação e trabalho. “A própria definição de língua ‘nativa’ pode variar culturalmente”, observam.

Outro caso curioso surge em Israel, onde o desempenho em russo foi elevado, possivelmente devido à imigração de falantes desse idioma nos anos 1990. Esses exemplos reforçam a importância de considerar fatores históricos e demográficos na análise linguística.

A principal contribuição do estudo é metodológica, mas suas implicações são amplas. Ao permitir testes rápidos em centenas de idiomas, a ferramenta abre caminho para pesquisas mais inclusivas e representativas.

“Nosso trabalho oferece um recurso significativo para investigar variações globais em habilidades linguísticas e reduz a dependência do inglês nas ciências cognitivas e sociais”, destacam os autores.


Na prática, isso pode transformar desde experimentos acadêmicos até aplicações educacionais e tecnológicas. Plataformas de ensino de línguas, por exemplo, poderiam adotar testes personalizados para qualquer idioma com base em dados textuais disponíveis.

O futuro da medição linguística

Apesar dos avanços, os pesquisadores reconhecem limitações. O método pode não capturar nuances específicas de cada língua, como estruturas gramaticais complexas ou variações semânticas. Ainda assim, sua escalabilidade compensa eventuais imperfeições.

Num mundo cada vez mais conectado — e linguisticamente diverso —, medir proficiência com rapidez e precisão torna-se não apenas um desafio técnico, mas uma necessidade científica.

Se depender do novo modelo, a ciência pode finalmente começar a ouvir — e entender — as muitas vozes do planeta.


Referência
P.van Rijn, Y.Sol,H.Lee, R.Marjieh, EU.Sucholutsky, F.Lanzarini, E.André, &N.Jacoby,  Um teste, muitas línguas: Levantamento da proficiência linguística em todo o mundo, Proc. Natl. Acad. Sci. USA 123 (13) e2420179123, https://doi.org/10.1073/pnas.2420179123 (2026).

 

.
.

Leia mais a seguir